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融合 深层 差异 特征 的 RGB-T 中 式 语义 分 割 网 络 
袁 洗 宾 ， 赵 a 


(四 川 大 学 电气 工程 学 院 , 成 都 610065) 


摘 要 : 针对 现存 可 见 光 - 红 外 (RGB-T) 图 像 语 义 分 割 模型 分 割 性 能 不 高 的 问题 ， 提 出 一 种 基于 深层 差异 特征 互补 融 
合 的 梨 式 分 割 网 络 。 具 体 来 说 ， 网 络 的 编码 部 分 和 解码 部 分 通过 多 级 稠密 中 间 路 径 相 连 形 成 一 个 误 套 形式 的 结构 ， 
编码 器 的 深浅 特征 通过 多 级 路 径 供 解码 器 实现 密集 的 多 尺度 特征 复 用 ， 另 一 方面 多 模 态 深层 特征 通过 特征 差异 性 融 
合 策略 增强 其 语义 表达 能 力 。 实 验 结 果 表 明 ， 所 提 网 络 在 MFNet 数据 集 上 实现 了 65.8% 的 平均 准确 率 和 54.7% 的 平 
均 交 并 比 ， 到 个 割 模型 相 比 ， 具 有 更 优越 的 分 割 能 

关键 词 : RGB-T 语义 分 割 ; 梨 式 网 络 ; 特征 复 用 ; 融合 策略 

中 图 分 类 号 : TP391.41 doi: 10.19734/j.issn.1001-3695.2022.03.0083 


Nested semantic segmentation network fusing deep difference features 


Yuan Haobin, Zhao Tao, Zhong Yuzhong 
(College of Electrical Engineering, Sichuan University, Chengdu 610065,China) 


Abstract: Considering the existing visible-infrared image (RGB-T) semantic segmentation models have limitations in 
segmentation performance, a nested semantic segmentation network fusing deep difference features is proposed. Specifically, 
the encoding part and the decoding part of the network are connected by a multi-level dense intermediate path to form a nested 
structure, and encoder features at various levels achieve densely repeated utilization via multi-stage path while the multi- 
modal deep feature enhances its semantic expressiveness by the feature differential fusion strategy. The comparison 
experiments show that the proposed network achieves an average accuracy of 65.8% and an average intersection over union 
of 54.7% on the MFNet dataset. Compared with other state-of-the-art RGB-T segmentation models, it has better segmentation 
ability. 

Key words: RGB-T semantic segmentation; nested network; feature reultilization; fusion strategy 


编码 特征 一 定 程度 上 绥 解 了 该 问题 四 ， 但 深浅 特征 利用 方式 


0 引言 es， 
语义 分 割 则 在 从 像素 级 层面 上 为 图 像 划 分 所 属 类 别 ， 在 。 RGB 和 红外 图 像 的 特征 模 态 差异 存在 ， 例 如 在 黑夜 环境 下 ， 
自动 驾驶 0、 医疗 分 析 思 和 机 器 人 定位 BI 等 领域 具有 广泛 的 应 。 红外 图 像 包含 RGB 图 像 不 能 感知 到 的 信息 内 容 ， 通 过 简单 
用 空间 。 受 可 见 光 传 感 器 成 像 机 制 所 限 由 ， 当 前 主流 的 RGB ” 相 加 久 和 在 通道 层面 拼接 四， 某 些 情况 下 会 对 易 辨 识 的 特征 
分 割 模型 在 浓 雾 和 暗 光 等 条 件 下 存在 不 可 避免 地 性 能 退化 句 。 造成 对 冲 作 用 ， 削 弱 优 势 
得 益 于 红外 传感器 捕获 热 辐射 信息 ， 红 外 图 像 可 以 有 效 补偿 特征 的 编码 响应 ， 尤 其 对 高 维特 征 影响 更 为 突出 ， 而 采 
劣势 环境 下 RGB 图 像 中 的 缺漏 信息 中 , 因而 融合 这 两 种 模 态 。 取 基 于 Softmax 算 子 的 共 注 意 力 5 进行 融合 的 方式 缺乏 学 习 
图 像 进 行 场景 表征 具有 更 强 的 健壮 性 。 能 
RGB-T 语义 分 割 近 几 年 备 受 研究 者 青睐 。MEFNetI] 是 首 为 更 加 充分 复 用 各 级 编码 特征 和 减少 模特 差异 对 高 维特 
人 驶 的 RGB-T 实时 语义 分 割 网 络 ， 该 模型 受 ” 征 的 融合 影响 ， 本 文 提出 了 一 种 融合 RGB 和 红外 图 像 深层 
FuseNet 架构 外 启发 , 由 两 个 对 称 的 低 参 数 编码 器 和 单个 解码 ”差异 特征 的 RGB-T 梨 式 语义 分 割 网 络 。 其 贡献 在 于 : 
器 组 成 ， 编 码 器 末了 两 层 通过 微型 下 采样 感知 模块 捕获 更 大 感 a) 编 码 器 深浅 特征 密集 复 用 方式 。 编 码 器 和 人 解码 器 通过 
受 野 的 多 尺度 特征 。 RTFNet 外 利用 ResNetl19 作 为 两 个 编码 器 ”多 级 中 间 路 径 相 接 ， 来 自 不 同 层次 的 尺度 相 异 的 编码 特征 通 
的 骨干 结构 整合 RGB 和 红外 图 像 信息 ， 解 码 部 分 通过 两 种 ”过 三 加 的 方式 整合 并 馈送 到 解码 端 ， 解 码 层 能 利用 到 更 多 的 
关 型 的 上 采样 模块 逐 层 渐进 式 的 恢复 分 》 辨 率 和 重 构 特 征 。Xu ”多 尺度 特征 信息 帮助 语义 划分 。 


等 人 0 将 编码 器 改进 为 带 空洞 卷 积 运算 的 ResNet 网 络 以 提 b) 深 层 特征 融合 策略 。 在 深层 特征 融合 阶段 ， 针 对 RGB 
高 对 小 目标 的 检测 ， 并 设计 了 一 个 共 注 意 力 机 制 模块 来 融合 ”和 红外 图 像 性 质 的 差异 性 ， 设 计 一 种 特征 差异 性 融合 策略 完 
提取 的 多 模 态 特征 。Guo 等 人 (3 关注 多 尺度 信息 的 利用 , 提 ” ”成 两 种 模特 图 像 的 互补 特征 提取 ， 从 而 实现 多 模 态 特 征 更 好 的 
出 了 一 个 辅助 解码 模块 来 接收 编码 器 的 各 级 特征 ， 这 种 跨 尺 。” ”信息 融合 ， 深 层 高 维 抽象 特征 的 语义 表征 能 力 因而 得 到 增强 。 
度 特征 传递 的 方式 实现 了 更 灵活 的 上 下 文 信息 融合 。 i 

这 些 研究 对 RGB-T 语义 分 割 作出 了 不 同 层面 的 贡献 ,但 1 ”和 业 式 语义 分 割 网 络 
有 以 下 挑战 存在 改进 空间 。 首 先 ， 仅 仅 依赖 深层 特征 单 向 传 巢 式 连接 架构 最 Zhou 等 人 03 在 医学 图 像 分 割 任务 
递 到 顺序 相连 的 解码 层 会 因 编码 下 采样 过 程 而 丢失 图 像 的 部 ”中 提出 ， 基 于 不 同 层 次 特征 对 尺寸 大 小 不 同 的 目标 对 象 表现 
分 边缘 细节 信息 [20， 而 通过 跳跃 连接 在 解码 端 复 用 同 尺 度 。 ”出 不 同 敏感 度 这 一 事实 ， 他们 将 U-Net 网 络 09 中 的 长 跳跃 连 
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单元 传递 深层 信息 的 渠道 仅 有 一 条 ， 在 进 
一 个 挑战 : 深层 网 络 捕获 到 小 尺度 等 


度 信 息 较 小 ， 此 时 RGB 和 红外 特征 表现 出 
更 高 维度 的 抽象 语义 性 ， 特 别 是 在 不 利 光照 环境 成 像 下 ， 


层面 上 构建 双 模 态 图 像 特 征 的 差异 性 ， 提 出 了 一 种 基于 特征 


息 会 使 其 深 屋 特 4 正 更 难以 学 习 » 此 时 


的 专注 在 能 够 弥补 双方 的 弱势 特征 区 


像 成 像 原理 具有 差异 性 , 通过 在 像素 


h 合 策略 ， 用 以 增强 深层 特征 的 语义 表达 。 
差异 性 融合 模块 的 输入 为 RGB 和 红外 特 


征 编码 阶段 , 双 模 态 特征 首先 经 由 卷 积 
竺 征 映射 矩阵 Q 和 K, ,两 个 矩阵 在 空 


下 运算 获取 模 态 特 征 差异 性 权重 矩阵 : 


W, =1—soft max(@,K?) (D 


层面 表现 为 数值 向 量 和 矩阵 ，Q, 和 Ki 相 


乘 反 映 了 RGB 和 红外 特征 的 特征 相关 度 。softmax 归 一 化 运 


录用 定稿 合 深层 差异 特征 的 RGB-T 梨 式 语义 分 割 网 络 
接替 换 为 上 采样 和 长 短 跳跃 组 合 的 垦 套 梨 式 连接 。 图 1 为 梨 1.2 深层 差异 特征 互补 融合 
式 连接 的 框架 结构 。 末尾 稠密 特征 
行 解码 重 构 时 存在 这 村 
较 困 难 目标 的 梯 
RGB 图 像 携带 的 言 
结合 红外 信息 应 当 
域 。 鉴 于 RGB 和 红外 区 
式 连接 结构 差异 性 的 互补 副 
Fig. 1 The architecture of nest connection 如 图 3 所 示 
在 集 式 结构 中 ， 深 浅 层 的 编码 特征 通过 和 征 图 , 在 RGB 深层 
Do De 集 用 ， 云 F 征 因此 运算 得 到 通道 压缩 后 的 4 
得 到 有 效 整合 。 六 将 梨 | RGB- T 语 间 尺 度 展开 后 进行 如 
义 分 割 任务 中 ， 构建 各 充分 整合 所 有 言 息 的 
RGB-T 分 割 网 络 。 如 图 2 所 示 ， 所 提 分 割 模型 包含 两 个 结构 特征 图 在 像素 级 
一 致 的 编码 器 和 一 个 解码 器 ， 左 侧 双 编码 器 逐 层 降 采样 提取 
深浅 特征 ， 右 侧 解码 器 渐进 式 的 重 构 特 征 马 部 分 和 解码 


部 分 通过 稠密 连接 的 多 级 
洪 套 形 Le 相 比 于 


胸 


FP 间 过 渡 


中 间 信 息 流通 渠道 使 各 级 语义 特征 信 


lt @ 按 元 素 相 加 求 和 
@ 拼 接 C 〇 中间 层 
|- 稠密 连接 方式 LS 


到 DenseNetH5] 拥 


的 原始 空间 信 ， 


的 分 类 层 


加 
名 


到 2 RGB-T 梨 式 语义 分 害 
Fig.2 RGB-T nested semantic segmentation network 

1.1 深浅 特征 编码 多 级 复 用 
众多 RGB-T 分 割 模型 采 月 

有 更 为 密集 的 信息 传播 途径 且 参 数量 
本 文 编码 器 的 骨 ee DenseNet # 
内 部 结构 的 统一 


日 ResNet 作为 骨干 


在 第 4 个 稠密 块 之 后 增 闪 


层 相 连 ， ear 
a 


算 保证 相关 度 和 矩阵 为 反映 公共 特征 在 全 局 位 置 上 的 权重 系数 ， 


忆 而 模 态 特征 的 差异 性 


可 通过 其 和 1 的 补 数 表示 。 接 着 ,RGB 


图 的 互补 特征 : 


的 互 补 特 征 Feature,, 
加 实现 深层 特征 


特征 图 的 线性 变换 矩阵 允 和 VW 进行 加 权 处 理 获取 了 RGB 特征 


Feature, =W,V. (2) 


同样 在 红 乡 


村 征 编码 阶段 通过 上 述 处 理 获 取 红 外 特征 医 


RGB 特征 图 


纠 外 特征 图 | 


卷 积 一 


。 最 后 两 个 互补 特征 同 输入 双 模 态 特征 相 
让 融合 增强 。 


(© 


向 量 又 乘 
一 


特征 相关 人 


度 短 阵 ”权重 从 陈 ”入 特 全 > 全 


融合 特征 


要 | 
国 二 
[wi 


妈 3 ”深层 差异 特征 融合 策略 


Fig.3 Deep differential feature fusion strategy 


1.3 ”特征 解码 器 


层 结构 一 致 的 过 渡 层 。 


池 化 层 和 4 个 


稠密 块 保持 特征 


下 采样 阶段 提取 的 深层 


完成 融合 。 


跃 连接 相 比 ， 网 络 编码 
间 层 得 到 缓解 。 如 民 


ei 


编码 器 可 以 成 
wi 屋 组 成 汞 rm 
的 分 辨 率 不 变 ， 剩 和 


采样 。 考 虑 到 红外 多 


为 单 通道 灰 度 


卷 积 层 的 输入 通道 数 修 


为 1。 对 于 前 


和 红外 信息 通过 按 元 素 相 加 的 方式 进行 特征 融合 


高 维特 征 ， 通 过 特征 差 


[== 


万 


效 帮助 语义 预测 ， 浙 i 


在 所 提 模 型 中 ， 各 
言 息 多 级 回流 ， 回 流 特征 和 前 一 副 
在 一 起 ， 并 传递 至 对 应 层级 的 重 


民 融 合 特 行 


L | 的 和 


E 通 过 上 采 


Fh 合 特征 


策略 


We 


屋 和 人 解码 


过 转 置 卷 积 实现 特征 
层 构成 ， 避 免 了 单个 卷 积 的 非 线 ! 


分 辩 率 倍增 兽 ， 中 间 层 | 


层 间 


长 跳 
能 够 通过 中 


; 浮 


上 上 采样 


， 通 
关 的 卷 积 
生 特征 提取 能 力 的 缺乏 。 


鉴于 DenseNet 拥 


解码 器 依靠 接收 的 编码 特征 进行 重 构 ， 获 取 稠 密 的 像素 
预测 。 所 提 网 络 的 解码 器 包括 上 采样 、 重 构 层 和 分 类 层 ， 详 
见 图 1， 其 中 分 类 层 由 单个 卷 积 层 和 双 线 性 插值 运算 构成 ， 
结构 ， 考 虑 和 上 采样 模块 功能 一 致 ， 实 现 倍增 的 特征 图 分 辨 率 恢 复 ， 并 
更 少 ， 完成 像素 信息 的 语义 归 类 。 分 类 层 的 卷 积 输 出 通道 数量 设置 
匡 架 。 同时 为 保留 更 多 ”为 语义 类 别 总 数 。 为 增强 网 络 梯度 传播 ， 重 构 层 通过 两 个 顺 
性 ，DenseNet ” 序 相 连 的 卷 积 层 和 一 个 残 差 路 径 上 的 1*1 卷 积 构成 残 差 结 构 
过 渡 由 于 每 个 重 构 层 接收 来 同 尺度 和 低 尺度 的 堆 著 特征 ， 重 构 
只 层 、 最 大 层 的 第 一 个 卷 积 和 刁 保 证 特征 图 通道 数 缩减 为 相同 层 
其 中 。 ”的 编码 层 的 输出 通道 数 ， 第 二 个 卷 积 维持 特征 图 分 辨 率 和 通 
部 分 实现 2 倍率 的 下 ” 道 数 不 变 。 网 络 所 有 的 卷 积 层 后 紧 跟 一 个 批 归 一 化 和 RuLU 
的 初始 。 ” 层 。 总 的 来 说 ， 解 码 器 可 划分 为 5 个 由 上 采样 模块 和 重 构 层 
呈 , RGB ”组 成 的 重 构 单元 和 1 个 分 类 层 ， 多 级 别 深浅 特征 复 用 路 径 有 


区 式 的 特征 尺度 恢复 保证 了 解码 器 和 


编码 器 在 结构 上 的 对 称 


性 。 


了 卷 积 层 数 相 异 的 变 体 :DenseNet-121、 


DenseNet-169、DenseNet-201 和 DenseNet-161， 前 三 个 架构 


数 也 相应 变动 。 
1.4 损失 函数 


次 递增 。 在 采 月 


的 特征 通道 增长 率 为 32, 末尾 的 为 48, 它们 的 参数 复杂 度 依 
司 变 体 结构 时 ， 各 个 降 采样 阶段 的 特征 输 
出 通道 与 相应 变 体 对 齐 ， 解 码 器 的 重 构 单元 的 输入 特征 通道 


损失 函数 同 网 络 拟 合 方向 和 收敛 速度 密切 相关 。 通 常 语 


交叉 炉 完 成 训练 : 
Los =-> ylog(p.) 


其 中 ，M 为 类 别 数 ，y。 和 p. 分 别 表示 
值 标签 向 量 和 预测 概率 图 。 考 虑 到 恨 
均衡 ， 交 叉 灶 损 失 不 能 很 好 的 平衡 这 种 样本 
差异 ， 本 文 额外 引入 改进 的 DiceLoss[ 


2 22,, prs 


2, p+ 8? 


标 图 像 类 别 划 分 


G3) 


属于 


等 : 融合 深层 差异 特征 的 RGB-T 梨 式 语义 分 割 网 络 


第 39 卷 第 9 期 


(SGD) 策 略 作为 优化 器 。 网 络 各 层 通 过 Xavier 方案 进行 权 


每 个 epoch 前 随机 翻转 处 理 以 预防 网 络 过 拟 合 。BatchSize 根据 


标 


兽 强 网 络 学 习 能 


其 中 ，p; 和 8 分 别 表示 


pa 


目标 


像 的 像素 域 N 内 的 


剖 预 测 值 和 二 进 


判 真实 标签 值 。 因 


1 
Zou = 7 (Le + Ly) 


(4) 


i 个 像素 的 
网 络 的 总 损失 表示 为 


(5) 


重 初始 化 ， 学 习 率 从 1x10” 


台 按 0.95 的 衰减 权重 逐个 epoch 


进行 指数 衰减 。 输 入 攻 


通过 像素 归 一 化 3 


骨干 网 络 变 体 结构 相 


分 割 性 能 通过 定性 定量 


地 对 比分 割 结 


并 比 (mIoU) 进 行 


于 两 个 损失 项 的 值 域 


习 丙 项 共同 引 与 
又 焙 损 失 项 的 不 足 。 


数据 集 与 训练 细节 
个 基于 


白天 和 


山 起 物 (Bump) 和 


具有 相同 数量 级 ， 它 们 各 自 占有 


网 络 学 习 ， 弥 补 了 使 ) 


A 
入 


F 像 素 级 语义 标注 的 RGB-T 城 市 道路 场 
[夜晚 采集 的 RGB- 红 
到 像 分 辨 率 统 一 为 480X640 大 小 。 
行车 道路 上 的 9 个 语义 类 :汽车 (Can、 行 人 (Person)、 音 
车 位 (Car Stop)、 护 栏 (GuardraiD)、 色 销 
未 标记 背景 区 (Unlabelled)， 每 个 类 另 


像 对 各 有 820 
手工 标 
车 (Bike)、 
E(Color Cone)、 
| 的 像素 


所 有 语义 类 别 


类 的 像素 个 数 ， 即 
像素 个 数 , 即 假 阴 1 


值 标签 的 平均 习 


N 
mloU DO 
NTP+FP+EN, 


4 


性 能 了 


E[0,1] 区 间 ， 并 且 在 


应 调整 ，DenseNet-161 设 为 2，DenseNet- 
201 和 DenseNet-169 设 为 4, DenseNet-121 设 为 6。 所 有 训练 和 
测试 过 程 均 在 一 台 配 备 24G 显存 的 NVIDIA GeForce RTX 3090 
GPU、32GB 内 存 和 AMD Ryzen 9 590 
训练 过 程 直 至 损失 函数 不 
取 最 佳 权 重 。 测 
2.2 性 能 衡量 手段 


其 中 ，N 为 类 别 总 数 ， 这 里 N 取 9。7P 表示 了 
FN; 表示 被 错误 预测 为 非 i 类 的 
性 。mIoU 衡量 所 有 类 别 上 的 预测 分 割 和 


其 中 ， FP 表示 被 错误 预测 为 第 i 类 的 像素 个 数 ， 即 假 阳性 。 
两 个 指标 的 数值 大 小 同 分 嘎 
2.3 ”实验 结果 分 析 


0X CPU 的 计算 机 上 完成 。 
减少 为 止 ， 训 练 期 间 通 过 验证 集 选 
[输入 作 任何 处 理 。 
的 手段 进行 评估 ,一 方面 可 视 化 
六 面 通过 平均 准确 率 (mAcc) 和 平均 交 
示 分 析 。mAcc 衡量 目标 图 像 像 素 在 
类 的 平均 概率 : 
1 N 
加 守 宕 TP +EFN, (6) 


E 确 预测 为 第 i 


(7) 


车 位 和 护栏 类 为 其 。 本 文 遵循 原始 数据 集 所 提 网 络 的 分 割 性 能 通过 在 MFNet 测试 集 上 进行 实验 
[验证 集 的 图 像 数量 占 比 为 2，1, 其 中 昼夜 图 验证, 相关 比较 方法 涉及 当前 前 沿 的 RGB-T 分 割 模型 , 所 有 
习 像 用 作 测 试 集 。 数据 来 源 于 对 应 文章 及 其 开源 代码 。 表 1 和 图 4 分 别提 供 了 
乍 PyTorch 框架 上 ， 使 用 随机 梯度 下 降 ”定量 比较 结果 和 昼夜 图 像 序列 的 可 视 化 对 比 结果 供 参 考 。 

表 1 在 MFNet 测试 集 上 的 对 比 结果 (黑体 值 为 最 佳 结果 ， 一 表示 未 提供 项 ) 
Comparison results on the mfnet test dataset (bold values are the best results, - means no items are provided) 
Car Person Curve Car Stop Guardrail Color Cone Bump 
mAcc mloU 

IoU Acc IoU IoU C IoU Acc IoU IoU 

65.9 67.0 58.9 29.9 12.5 9.9 0.1 25:2 27.7 45.1 39.7 

87.4 79.3 70.3 45.3 38.5 29.8 0.0 29.1 55.7 63.1 53.2 

86.0 76.3 67.4 43.0 35.3 28.9 24.5 44.9 S6.6 62.2 54.6 

823 一 68.1 273 一 304 一 55.6 40.1 = 53.8 

83.9 一 69.3 43.2 一 24.7 一 42.2 50.7 62.7 52.8 

88.2 80.8 70.8 47.0 26.8 19.9 32.9 45.5 55.5 65.8 54.7 


真 值 标签 


一 人 


在 MFNet 测试 外 


i :+ "e+ 


发 上 的 分 割 结果 对 比 


Fig.4 Comparison of segmentation results on the mfnet test dataset 
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据 表 1 可 知 ， 所 提 分 割 网 络 在 mAcc 和 mIoU 两 个 指标 ” 网 络 深度 影响 。 
本 


上 都 取得 了 最 佳 值 。 具 体 而 言 ， 汽 车 和 行人 的 语义 归 类 拥有 
全 面 的 最 高 指标 ， 这 很 可 能 得 益 于 嵌 套 形式 的 梨 式 连接 和 深 “EE 
层 差异 特征 融合 策略 的 共同 作用 ， 前 者 使 得 大 尺度 目标 和 易 a 

识别 对 象 的 学 习 能 力 更 强 ， 后 者 能 够 增强 具有 显著 特征 差异 | 
的 目标 的 深层 语义 表达 ， 在 夜晚 具有 相对 最 大 特征 模 态 差异 3 J 
的 汽车 和 行人 类 受 此 益处 最 多 。 对 于 车 道 线 ， 由 于 其 白色 反 dl 16 
光 特 性 在 夜晚 有 着 稍 逊 于 热 辐 信息 的 成 像 优 势 ， 一 定 程度 上 a 上 
增强 了 自身 特征 优势 。 相 对 而 言 ， 单 车 类 由 于 在 多 个 场景 密 3 : 
集 扎堆 ， 聚 簇 形式 的 单车 结合 体 在 币 密 中 间 层 可 能 被 过 拟 合 4 y | 1 
训练 ， 削 弱 了 单个 单车 的 尺度 分 割 优势 ， 分 割 精度 因而 未 能 人 
取得 最 好 。 而 小 尺度 对 象 的 色 锥 则 很 可 能 受 此 益处 ， 这 点 图 5 ”DenseNet 变 体 结构 对 分 割 性 能 影响 
MFNet 和 RTFNet 可 以 证 明 ， 后 两 者 网 络 模型 未 有 桥接 编码 Fig.5 Impact of densenet variant structure on segmentation performance 


器 和 解码 器 的 信息 流通 渠道 ， 它 们 对 于 小 尺度 对 象 的 特征 学 ”2.3.2 编码 特征 复 用 方式 
习 能 力 不 够 。 而 AFNet 和 MLFNet 分 别 由 于 共 注 意 力 融合 和 在 所 提 模 型 中 ， 编 码 器 和 解码 器 间 通 过 内 套 形式 的 上 采 
编码 特征 多 级 跳跃 的 优势 在 一 定 程度 上 促进 了 各 个 尺度 对 象 ” 样 和 中 间 层 相连 ， 这 种 梨 式 连接 使 得 编码 器 的 深浅 特征 能 
的 特征 处 理 能 力 ， 各 自 都 有 着 出 色 的 分 割 能 力 。 对 于 其 他 类 以 一 种 非常 密集 的 形式 得 到 复 用 .为 了 验证 该 做 法 的 有 效 性 ， 
别 , 护栏 和 停车 位 在 测试 集中 的 样本 数 过 少 (护栏 在 393 对 图 本 部 分 去 掉 编码 部 分 和 解码 部 分 间 的 所 有 信息 复 用 路 径 ， 只 
像 中 仅 有 4 对 出 现 )， 各 个 模型 的 分 割 情 况 都 表现 欠 佳 ， 尤 其 保留 编码 器 末尾 层 同 解码 器 相连 ,这 种 结构 简称 为 U 型 直 连 。 
是 MFNet 和 RTFNet， 这 可 能 由 于 这 两 类 本 不 充足 的 特征 信 同样 , 在 U 型 结构 间 增 加 跳跃 连接 ， 用 于 将 编码 器 的 同 层级 
息 在 缺乏 特征 复 用 或 调节 的 网 络 训练 过 程 中 丢失 过 多 所 致 。 特征 传递 到 对 应 的 解码 器 重 构 层 ， 这 种 结构 简称 为 同 层 跳跃 


chinaXiv 


更 多 的 细节 差异 可 从 图 4 观察 比较 ， 仅 以 图 4 中 第 2 列 和 末 连接 。 以 DenseNet-161 骨干 网 络 为 基准 ， 保 证 其 他 条 件 不 做 
列 为 例 ， 单 车 类 具有 同 真 值 最 接近 的 分 割 情况 。 变动 , 重 训练 网 络 直至 收敛 。 表 3 为 在 MFNet 测试 集 上 的 分 
为 进一步 探究 模型 的 分 割 效能 , 表 2 列 出 了 在 MFNet 测 制 对 比 结果 。 
试 集 上 单独 对 所 有 白天 图 像 和 夜间 图 像 的 实验 比较 结果 。 表 3 编码 特征 复 用 方式 
表 2 昼夜 图 像 序列 对 比 结果 Tab.3 Multiplexing method of encoding features 
Tab. 2 Comparison results of day and night image sequences 方法 U 型 直 连 同 层 跳跃 连接 梨 式 连接 
天 夜晚 mAcc 56.1 67.6 65.8 
Methods 
mAcc mIoU mAcc mIoU mlIoU 45.8 52.9 54.7 
MEFNetDl 42.6 36.1 41.4 36.8 据 表 3 可 知 ， 当 解码 器 未 复 用 编码 特征 时 ， 网 络 分 割 | 
RTFNetm 60.0 45.8 60.7 54.8 能 急剧 衰退 。 当 通过 长 连接 复 用 同 尺度 特征 时 ， 分 割 性 能 得 
AFNetL 54.5 48.1 60.2 53.8 到 提升 ， 尤 其 是 准确 率 。 而 当 多 尺度 深浅 特征 通过 梨 式 连接 
MLFNetLI3 = 45.6 一 54.9 复 用 时 ， 网 络 的 准确 分 割 覆 盖 率 进一步 得 到 提升 ， 但 是 单 像 
本 文 方法 58.0 47.0 64.6 557 素 分 割 精 确 度 略 有 退化 。 总 而 言 之 ， 复 用 编码 特征 会 极 大 地 
表 2 可 知 , 所 有 方法 均 在 夜晚 取得 了 更 好 的 分 割 性 能 ， 影响 分 割 性 能 ， 对 深浅 特征 进行 密集 复 用 能 最 有 效 地 提高 平 
这 可 能 是 因为 在 光照 充足 的 条 件 下 , RGB 图 像 已 包含 易于 分 均 交 并 比 ， 但 会 略微 削弱 准确 率 的 提高 ， 这 可 能 是 稠密 中 间 
割 的 丰富 细节 信息 ， 热 辐射 信息 的 融入 会 给 部 分 优势 特征 造 连接 路 径 会 对 部 分 场景 造成 分 割 过 拟 合 。 
成 对 冲 ， 削 弱 它 们 的 语义 表现 。 而 在 夜间 ， 两 种 模 态 特征 存 2.3.3 深层 特征 融合 策略 
在 更 大 的 语义 鸿沟 ， 这 时 候 红 外 信息 的 融入 更 易于 提高 语义 为 验证 深层 差异 特征 融合 策略 的 有 效 性 ， 本 部 分 对 比 了 
划分 结果 。 两 种 融合 策略 : Transformert9 中 的 自 相 似 性 融合 单元 和 基于 
对 比 便 夜 测试 序列 结果 ， 本 文 方法 在 夜晚 场景 具有 更 好 像素 差异 性 的 互补 融合 。 前 一 策略 聚焦 于 特征 图 自身 各 像素 
的 平均 准确 度 和 平均 交 并 比 ， 这 从 侧面 佐证 了 所 提 深 层 差 异 位 置 在 空间 位 置 上 的 相关 性 ， 是 一 种 类 似 于 位 置 注意 力 的 融 
特征 融合 策略 能 够 充分 整合 RGB 和 红外 图 像 特征 ， 因 为 红 合 机 制 , 而 后 者 关注 多 模 态 特征 在 像素 层面 上 的 语义 相关 性 。 


外 图 像 天 然 在 夜间 具有 成 像 优势 ， 这 时 候 两 者 的 特征 差异 表  ” 相 比 之 下 ， 本 文 所 提 融 合 策略 关注 RGB 和 红外 特征 图 在 向 
现 得 更 加 突出 。 量 特征 间 的 语义 相关 性 。 表 4 为 这 三 种 融合 策略 在 MFNet 测 
2.3.1 编码 器 骨干 网 络 变 体 试 集 上 的 消融 实验 结果 。 

DenseNet 结构 的 不 同 变 体 作 为 编码 器 骨干 网 络 会 带 3 表 4 深层 特征 融合 策略 对 比 实验 结果 
不 同 的 分 割 性 能 .为 探究 DenseNet 变 体 结构 对 分 割 性 能 的 影 Tab.4 Experimental results of deep feature fusion strategies 
响 ， 在 只 改变 骨干 网 络 变 体 的 条 件 下 重新 进行 训练 ， 直 至 损 方法 ” 自 相 似 融 合 策略 基于 像素 差异 性 的 融合 基于 特征 差异 性 的 融合 
失 函 数 不 再 减少 为 止 。 图 5 显示 了 不 同 变 体 在 MFNet 测试 集 mAcc 63.7 65.3 65.8 
上 的 表现 情况 。 mIoU 53.9 53.8 54.7 

图 5 中 mFPS 表示 在 测试 集 上 的 平均 每 秒 分 割 帧 数 ， 为 据 表 4 可 知 ， 所 提 融 合 策略 能 提供 给 RGB 和 红外 深层 


司 分 割 指标 值 的 增长 方向 保持 一 致 ， 实 际 以 mFPS 的 倒数 绘 。” 特征 最 佳 的 融合 指导 意义 ,这 是 因为 ,在 多 模 态 特征 融合 中 ， 
线 。 由 图 可 知 ， 随 着 DenseNet 结构 变 体 的 复杂 度 增加 ,所 提 ” ” 自 相似 融合 策略 忽视 了 相 异 图 像 特 征 的 表达 ， 而 基于 像素 差 
网 络 在 准确 率 和 交 并 比 两 个 分 割 指标 上 均 呈 递增 趋势 ， 相 比 。 异性 的 融合 只 关注 局 部 的 特征 相关 性 ， 它 们 在 整合 有 性 质 差 
之 下 ， 对 应 的 平均 分 割 每 帧 图 像 所 消耗 时 间 可 近似 视 为 仅 同 。 异 的 多 模 态 图 像 的 高 维特 征 上 存在 局 限 。 总 而 言 之 ， 在 高 维 
网 络 层 数 正 相关 。 推 测 此 种 原因 在 于 多 层 架 构 由 于 参数 量 的 象 特征 融合 上 ， 对 于 成 像 机 制 相 异 的 多 模 态 对 象 而 言 ， 通 
提升 会 具备 更 强 的 分 割 学 习 能 力 ， 但 网 络 推理 速度 基本 只 受过 挖掘 它们 各 自 不 同 的 特征 ， 并 进行 针对 性 的 特征 级 上 的 弥 


录用 定稿 表 浩 宾 ， 等 : 
补 融合 能 够 得 到 具有 更 健壮 语义 表达 的 融合 特征 。 
3 ”结束 语 


本 文 设计 了 一 种 融合 RGB 和 红外 图 像 深 层 差异 特 和 
梨 式 语义 分 割 网 络 ， 该 模型 考虑 到 来 自 不 同 编码 尺度 的 4 
有 各 个 层面 的 语义 表示 ， 通 过 构建 租 套 形式 的 中 间 路 
山高 效 的 深浅 特征 密集 复 用 ， 同 时 为 增强 RGB 和 红 乡 
高 ， 通 过 设计 深层 差异 特征 及 
策略 实现 特征 互补 增强 。 与 前 沿 网 络 模型 在 公共 数据 集 上 
比 实验 表明 ， 所 提 模 型 在 分 割 性 能 上 具有 优越 性 ， 并 且 消 融 今 
验证 明了 特征 密集 复 用 和 深层 差异 特征 融合 策略 的 有 效 性 。 
在 未 来 的 工作 中 ， 拟 聚焦 于 差异 特征 融合 策略 和 注意 力 
机 制 相 结合 的 优化 ， 以 期 提高 对 复杂 对 象 的 分 割 准确 度 。 同 
时 考虑 将 RGB-T 分 割 网 络 泛 化 迁移 到 能 够 适用 于 其 他 多 模 
态 图 像 的 语义 分 割 领 域 。 
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